Chapter 2 正则表达式,文本标准化,编辑距离

2.3 语料库

单词不会无中生有。任何我们研究的特定文本片段都是一个或多个特定的说话者或是作者用特定语言的特殊方言,在特定的时间,特定的地点,为了一种特定的功能产出的。

或许差异最大的维度就是语言了。NLP算法在涉及跨语种应用时最有用。截至本文撰文时,根据在线 Ethnologue catalog (Simons and Fennig, 2018),这个世界共有7079种语言。大多数NLP工具包倾向于为大型工业国家(中文,英文,西班牙语,阿拉伯语等)的官方语言开发。但我们不想将工具仅限于这几种语言的应用。而且,大多数语言还有多种变种,比如在不同地区或者不同社会群体使用的方言。因此,举个例子,如果我们正在处理African American Vernacular English(AAVE),一种美国百万人使用的方言。制作与该方言功能匹配的NLP工具是很重要的。在用AAVE写出的推特推文中,经常使用类似 iont 的结构(I don’t in Standard American English (SAE)),或者 talmbout 对应SAE的 talking about 。这两种例子都影响分词 (Blodgett et al. 2016, Jones 2015)。

在一个单一交流行为中,说话者或者作者使用多种语言也是十分普遍的,这个现象称为编码切换。编码转换是在世界范围都十分常见。这里有一些西班牙语和(音译)印地语跟英语编码切换的例子 (Solorio et al. 2014, Jurgens et al. 2017):

(2.2) Por primera vez veo a @username actually being hateful! it was beautiful:)
[For the first time I get to see @username actually being hateful! it was beautiful:) ]

(2.3) dost tha or ra- hega … dont wory … but dherya rakhe
[“he was and will remain a friend … don’t worry … but have faith”]

差异的另一个维度就是体裁。我们的算法必须处理的文本可能会来自新闻,科幻,非科幻,科技文章,维基百科,或者宗教文本。他们也可能来自语音体裁,比如电话会话,商业会议,警用携带相机,医疗采访,或者电视综艺、电影的片段。他们也可能来自工作情况,比如医生的字条,法律条文,议会或国会程序。

文本也会反映作者(或者讲话者)的人口统计学特征:他们的年龄,性别,种族,社会经济阶层都可以影响我们正在处理的文本的语言学属性。

并且最后,实践也会影响。语言会随着时间变化,并且对于一些语言我们拥有不同历史时期的良好的语料库。

因为语言是需要因地制宜的,当开发语言处理的计算模型时,考虑到谁创造了这个语言,在什么上下文环境下,为了什么目的,并确保模型适合数据是重要的。


喵喵喵?